Машинное обучение в продакшне 
— это просто! 
Нужно только... 


Михаил Марюфич, Одноклассники 


‚ \ HighLoade: 
HL Ба 


хо 


Инженер по машинному обучению 


Разрабатываю М!-решения 
Выкатываю их в прод 
Улучшаю М! -инфраструктуру 


Михаил Марюфич 


$+ Настройки ... Ещё 


Друзья Заметки OT Группы 
181 17 48 5 


Одноклассники 


- Около 41 млн жителей 
России ежемесячно* 

- 168 миллионов реакций 
в день 


*По данным Mediakit, 2021 


Одноклассники 


>500 сервисов 
>9000 машин 
6 дата-центров 


>80 ТВ RAM 

>100 PB Storage 

>20K Cores 

>24 |B новых данных ежедневно 


Машинное обучение — это важно! 


- Рекомендации постов, групп, 
музыки, друзей ит.д. 
- Защита от спама 


Более 100 моделеи 


хо 


Как может выглядеть работоспособный продакшн, 
если пойти по пути наименьшего сопротивления, и 
почему это не работает, когда много моделей и 
ответственность перед пользователями! 


хо 


Рекомендации 


Сервис, где мы показываем пользователю 
наиболее интересные посты среди всего 
контента Одноклассников* 


* От групп и авторов, на которых пользователь еще не 
подписан 


о 
х 


Актуальное Коронавирус Новости Рядом Сад и огород Культура Рецепты Ещё ~» Q Поиск по темам 


- Не подскажете, который час? - Без пяти минут май... 


Э ТЕПЛОЕ НАСТРОЕНИЕ é y 


Швейцария 


Пасмурный день в долине водопадов... 


о Таинственные дали é т a 


Баланс е Самые красивые места Земли é 9 AM 


@ Гармония Природы “ 4 а. 


ом Сади огород Культура Рецепты Ещё ~ Q Поиск по темам 


Сервис, где мы показываем пользователю 
наиболее интересные посты среди всего 
контента Одноклассников* 


- Не подскажете, который час? - Без пяти минут май... 


%? ТЁПЛОЕ НАСТРОЕНИЕ é cal 


Швейцария 


Пасмурный день в долине водопадов... 


МЛ в рекомендациях 


о Таинственные дали é т 


- найти наиболее интересные 
пользователю источники, среди 11+ 
млн групп и авторов 


* От групп и авторов, на которых пользователь еще не alee 
подписан 


е Самые красивые места Земли é 9 


> Гармония Природы “ a 


Как выглядит продакшн 


хо 


по userld достаем 
список источников 


100 мс 


й ok.ru/discovery ok-feeds-recommender storage 


User i 


Умеет быстро втягивать данные из kafka 
и отдавать данные по ключу в онлайне. 


Мы используем его для хранения и 
быстрого извлечения по id различной 
информации, такой как список 
рекомендуемых групп, вектор интересов 
и др. 


Voker<?> 201 К 


ДМИТРИЙ 


БУГАЙЧЕНКО 


ОДНОКЛАССНИКИ 


КАК посчитАТЬ CTR 100M оБЪЕКТОВ 
В РЕАЛЬНОМ ВРЕМЕНИ И НЕ УМЕРЕТЬ A 
оо: ШО S 
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Как выглядит продакшн 


Все, что нам нужно сделать — это сделать так, что в 
хранилище по userld будут записаны нужные нам 


данные. 
по userld достаем 
= > список Источников 
100 мс 772 2 ) 
<< f Г ; Y > @ 
/ < с» 
ok.ru/discovery ok-feeds-recommender storage 


User 


Как выглядит продакшн 


Все, что нам нужно сделать — это сделать так, что в 


хранилище по userld будут записаны нужные нам 
данные. 


по userld достаем 
список источников 


100 мс 


7 ok.ru/discovery 


ok-feeds-recommender storage 


User 


Как это происходит? 


© Jira 


Улучшить / \ 


систему 


рекомендаций MLE 


Провалидировать Задеплоить 


XO 


Как это происходит? 


© Jira 


Улучшить / \ 


систему 


рекомендаций МГЕ 


Провалидировать Задеплоить 


XO 


Как это происходит? 


© Jira 


Улучшить / \ 


систему 


рекомендаций MLE 


Провалидировать Задеплоить 
Собрать данные Обучить модель жедел 
Spark: C) 


XO 


Как это происходит? 


© Jira 


Улучшить / \ 


систему 


рекомендаций MLE 


Провалидировать Задеплоить 


XO 


Как это происходит? 


© Jira 


Улучшить / \ 


систему 


= MLE 


Шаа =ОШ 
ть данн 
[Собрать данные) данные | обуить модель. модель aai Шаа нд es | алы 


ar 
ө 
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Как это происходит? 


© Jira 


Улучшить / \ 


систему 


= MLE 


Шаа =ОШ 
ть данн 
[Собрать данные) данные | обуить модель. модель aai Шаа нд es | алы 


ar ° 
© 


хо 


Наша цель — это не задеплоить 
модель, а сделать пользователей 
счастливыми как можно быстрее! 


XO 


Путь к счастью пользователя 


Разрабатываем хорошую 
модель 


Она выдает классные 
рекомендации 


Пользователь счастлив 


хо 


Проверка гипотезы 


Для четверти пользователей заливаем предсказания б 
модели руками и проводим А/В-тест 7 


МІЕ 


ГА ok.ru/discovery ok-feeds-recommender storage 


User 
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Проверка гипотезы 


Для четверти пользователей заливаем предсказания б 
модели руками и проводим А/В-тест 7 


МІЕ 


+15% к времени! 
+20% лайков группового контента! 
+30% лайков пользовательского 
контента! 


—— e 


ГА ok.ru/discovery ok-feeds-recommender storage 


User 


Раскатка на всех 


Для всех пользователей заливаем предсказания б 
модели руками 7 


МІЕ 


ГА ok.ru/discovery ok-feeds-recommender storage 


User 
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Раскатка на всех 


Для всех пользователей заливаем предсказания б 
модели руками 7 


МІЕ 


+14% к времени! 
+15% лайков группового контента! 
+25% лайков пользовательского 
контента! 


—— | 


ГА ok.ru/discovery ok-feeds-recommender storage 


User 


Раскатка на всех 


Для всех пользователей заливаем предсказания б 
модели руками 7 


МІЕ 


Все счастливы! 


ГА ok.ru/discovery ok-feeds-recommender storage 


User 
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Наблюдение: рекомендации устаревают 


А| storage 


Рекомендации нужно обновлять раз в неделю 


хо 


хо 


Проблема 


Будет работать, НО для поддержания работы продакшна 
потребуются ручные действия (раз в неделю) 


Когда много моделей очень 
сильно возрастает 
вероятность факапа. 


Нам нужно деплоить модель 


Нам нужно “задеплоить” модель, чтобы 
обеспечить стабильные поступления хороших 
рекомендаций 


7 ok.ru/discovery 


ok-feeds-recommender storage 


User 
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Как работает модель? 


пользовательская 
активность 
активность друзей 


ПОДПИСКИ 
пользователя 


признаки пользователя 


(кол-во друзей, возраст, 
пол, геолокация) 


признаки источников 


(кол-во подписчиков, 
тематика) 


Нейронка 


Какя перестал бояться и научился любить нейронные сети 


XO 
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Как работает модель? 


Вектор источника 1 


Вектор пользовательских интересов 


Вектор источника 2 


0.9 


Вектор источника 3 


хо 


Как работает модель? 


пользовательская 
активность 
активность друзей 


ПОДПИСКИ 
пользователя 


признаки пользователя 
(кол-во друзей, возраст, 
пол, геолокация) 


признаки источников 
(кол-во подписчиков, 
тематика) 


NVIDIA. 


хо 


Как выглядит ручной процесс 


feed/prod_discovery > =: = = аға «б 


Считываем данные и готовим фичи 


val dataset1 = 1оаара+аѕе+("10 days адо: +одау", "DATASET1_PATH") 
val dataset2 = LoadDataset("9 days ago:today", "DATASET2_PATH") 
val dataset3 = LoadDataset("14 days ago:today", "DATASET3_PATH") 


val features = prepareFeatures(dataset1, dataset2, dataset3) 
saveFeatures(features, "FEATURES_OUTPUT") 


Считаем пользовательские векторы 


// ssh srvk4353 
// cd /home/user_userovich/my_useful_scripts/prod_discovery/predict_neironka_v32 
// sh do_magic.sh 


Заливаем предсказания в STORAGE 


val userEmbeddings = spark.read.parquetC"USER_EMBEDDINGS") 

val sourceEmbeddings = spark.read.parquetC"SOURCE_EMBEDDINGS") 
val predicts = postprocess(userEmbeddings, sourceEmbeddings) 
upLoadPredicts(predicts, "PROD_DISCOVERY_TOPIC") 


хо 


Как выглядит ручной процесс 


хо 


feed/prod_discovery > : в = аға a 6 


Считываем данные и готовим фичи 


val dataset1 = 1оаара+аѕе+("10 days адо: +одау", "DATASET1_PATH") 
val dataset2 = loadDataset("9 days ago:today", "DATASET2_PATH") 


val dataset3 = LloadDataset("14 days ago:today", "DATASET3_PATH") Не под контролем GIT 
val features = prepareFeatures(dataset1, dataset2, dataset3) Не было ревью 
saveFeatures(features, "FEATURES_OUTPUT") НЕСТАБИЛЬНО 


Считаем пользовательские векторы 


// ssh srvk4353 
// cd /home/user_userovich/my_useful_scripts/prod_discovery/predict_neironka_v32 
// sh do_magic.sh 


Заливаем предсказания в STORAGE 


val userEmbeddings = spark.read.parquetC"USER_EMBEDDINGS") 

val sourceEmbeddings = spark.read.parquetC"SOURCE_EMBEDDINGS") 
val predicts = postprocess(userEmbeddings, sourceEmbeddings) 
upLoadPredicts(predicts, "PROD_DISCOVERY_TOPIC") 


Inference Pipeline 
Датасеты с данными Подготовить данные 
для нейронки для неиронки 


Вектора 
источников 
Файл с 
моделью 


Получить итоговые 
предсказания 


Залить предсказания 
в storage 


Оркестратор контейнеров 


Получить векторы интересов, 
используя нейронку 


хо 


Inference Pipeline 


Еее бай Оркестратор контейнеров 


Датасеты с данными Подготовить данные 
для нейронки для нейронки 


Вектора 

источников 
Файл с 

моделью 


Получить векторы интересов, 
используя нейронку 


Получить итоговые 
предсказания 


Залить предсказания 
в storage 


хо 


Apache Airflow 


хо 


Один из самых популярных оркестраторов 
данных. 


отлично подходит для ра*сй-сценариев 
встроенная работа с расписаниями 

- позволяет выстраивать сложные 
зависимости 


удобен для работы в гетерогенной среде 


XO 


Текущая схема 


Airflow 


9 Jira 
Улучшить Кене Обеспечить inference 
систему MLE модели 


рекомендаций 


Собрать данные Обучить модель Поместить модель в место, 
доступное для прода 


Выводы 


- На продакшн не должен влиять человеческий фактор. 


- Для экспериментов такой подход имеет место быть. 


хо 


Организационные решения 


XO 


Без автоматизации раскатываем максимум на четверть 
аудитории для временного А/Б-эксперимента. 


Стремимся вводить автоматизацию на этапе первых 
экспериментов (автоматизировано использование моделей для 


90% от всех экспериментов). 


Мы хотим стабильности 


Задача: понимать, если состояние нашей системы деградирует 


хо 
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хо 


Мониторинг сервисов 


Время отдачи данных со стороны storage 


1) 
2) Время построения рекомендаций 
5) Количество запросов 
&) Количество ошибок 
по userld достаем 
= > список Источников 
100 мс 722 л 
<< f Г ; J > @ 
/ « с» 
ok.ru/discovery ok-feeds-recommender storage 
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User 


Продуктовые метрики 


1) Количество лайков в разрезе разных типов контента 


2) Количество комментариев 
5) Количество запросов в друзья 
4) к проведенное на сайте 


сл 


XO 
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Мониторинг inference pipeline 


Контролируем, что каждая из 
частей пайплайна отрабатывает 


Ж Airflow DAGs Security Browse Admin 


DAGs 


Active @ Paused © 


DAG Owner 


© example_bash_operator airflow 
example example2 


example_branch_dop_o| te 3 
< ) ре” бор орегано у, airflow 
example 
le_bı h, 19 
example_branch_operator dnei 
example example2 
example_complex 
© бесш airflow 


example example? ехатріез 


© example_external_task_marker_child airflow 
(© example_external_task_marker_parent airflow 
example_kubernetes_executor 4 
© airflow 
example example2 
example_kubernetes_executor_confi 
© ашы = Е g airflow 
example3 
t а 
© example_nested_branch_dag Ном 
‘example 
example_passing_params_via_test_command 
араараа airflow 


example 


Filter DAGs by tag 


Runs 


© 


© 
OO 


оо 


Schedule 


аааіу 


None 


None 


@daily 


Last Run 


2020-10-26, 21:08:11 


2020-10-23, 14:09:17 


2020-10-26, 21:08:04 


2020-10-26, 21:07:33 


2020-10-26, 21:08:34 


2020-10-26, 21:07:40 


2020-10-26, 21:07:37 


Search DAGs 


Recent Tasks 


© 


O 


21:11 UTC 


XO 


Actions 


> 


с 


с 


е 


е 


е 


б 


б 


a 


a) 


RH 


Links 
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История про инцидент 


Резко упало количество классов и 
комментариев 


хо 
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История про инцидент 


Резко упало количество классов и 
комментариев 


В итоге нашли, что поплыли 
значения фичей 


хо 
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Проблема 


При внешней стабильности системы — мо! ут выкатиться некачественные 
рекомендации. 


| 


f \ | 7 >” 
_ 4 мониторинг 


хо 
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Мониторинг данных 


Следим за изменением статистик данных на вход и выход, 
допустимыми значениями фичей и предсказания. 


Среднее значение Feature_1 
100 


75 


50 


25 


6 мая 7 мая 8 мая 


9 мая 


хо 
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Как это работает 


Я 


Получить векторы интересов, 
используя нейронку 


Выслать alert 


Проверка 
данных 


Подготовить данные 
для нейронки 
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Мониторинг МЕ-метрик 


Считаем метрики машинного обучения в онлайне (насколько ТОЧНО МЫ 
предсказываем источники по постам, которые кликают/лайкают 4 т.д.) 


Точность предсказаний 
80 


60 


40 


20 


6 мая 7 мая 8 мая 9 мая 


XO 
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хо 


Результаты 


= Поверили в то, что мониторинг данных действительно 
важен 


= Предотвращено некоторое количество похожих, 
тяжело расследуемых, инцидентов. 
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XO 


Текущая схема 


Airflow 


9 Jira 
Улучшить Кене Обеспечить inference 
систему MLE модели 


рекомендаций 


Собрать данные Обучить модель Поместить модель в место, 
доступное для прода 


51 


Наблюдение 1: МЕ-модели — “устаревают”! 


А| storage 


“Устаревшую” ML-mogenb следует обновить 


хо 


Наблюдение 2: Мы не знаем, что он делает! 


© Jira 


Улучшить 
систему 
рекомендаций 


MLE 


BLACKBOX 


Обеспечить inference 
модели 


Поместить модель в место, 
доступное для прода 


хо 


Почему модели устаревают? 


о 
х 


Изменяющийся мир 


- Меняется пользовательское поведение 
- Появляются новые источники 


Почему модели устаревают? 


о 
х 


Изменяющийся мир 


- Меняется пользовательское поведение 
- Появляются новые источники 


Нужно уметь переобучать модель на 
новых данных 


Почему модели устаревают? 


Появление новых идей (ведущих к увеличению 
счастья пол ьзователей): 


- Придумал новый признак 
- Придумал новый способ собрать датасет 
- Вышла новая статья, нужно срочно реализовать 


Я 


AN 

N 
ИА 
AbD BA 


« 

X 
МИ 
S 


N DW, 
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Почему модели устаревают? 


Появление новых идей (ведущих к увеличению 
счастья пол ьзователей): 


- Придумал новый признак 
- Придумал новый способ собрать датасет 
- Вышла новая статья, нужно срочно реализовать 


Я 


>=; 
ZAN 
«Я 
АА] 
ОСА 
в 
SSH 


Ss 
G) 
SH 


@ $ 
(О 
RY 


Нужно уметь эффективно экспериментировать 
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Для продакшна критично: 
1) умение переобучать модель на новых данных 
2) умение эффективно экспериментировать 


хо 
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Проблемы в текущем процессе 


1) Ручной 

2) Непрозрачный процесс экспериментирования 

3) Нет способа воспроизвести продакшн-модель, а следовательно, и 
надежно внести изменение 


Нееет! ~ 
Только я знаю как 
тренировать 
продакшн модели... 


XO 
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Корень проблемы 


0$ делают модели 


DS делают пайплайны 


хо 
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XO 


Почему сложно? 


хо 


Почему сложно? 


На каждом из этапов — фиксируем слишком мало 
информации 


Улучшить РА 
систему 


рекомендаций MLE 


[собрать данные данные oye модель модель 


Провалидировать 
модель 


Поместить модель в место, 
доступное для прода 
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Очевидное решение 


1) Коммить код 
2) Писать хронику экспериментов в Wiki 
3) Писать в инструкциях, как запустить обучение 


Улучшить РА 
систему 
рекомендаций MLE 


Провалидировать 
модель 


Собрать данные Обучить модель 


хо 


Поместить модель в место, 
доступное для прода 
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Разработка модели 


Собрать данные 


Обучить модель 


Провалидировать 
модель 


Поместить модель в место, 
доступное для прода 
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Разработка модели 


Собрать данные 


Обучить модель 


Провалидировать 
модель 


Поместить модель в место, 
доступное для прода 
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Data Registry 


Версионируем датасеты с помощью DVC, сохраняем их 
на hdfs. 


Используем для обучен ия только данные доступные на 
продакшне. 


хо 
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Разработка модели 


Собрать данные 


Обучить модель 


Провалидировать 
модель 


Регистрируем данные в 
Data Registry 


Поместить модель в место, 
доступное для прода 
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Разработка модели 


Собрать данные Где-то сохраняем данные 


| 

| 

| 

ч 

І 

Код в отдельных скриптах или 
Обучить модель ноутбуках | 
| 

ч 

| 

| 

| 


Провалидировать 
модель 


| 
Поместить модель в место, І 
доступное для прода І 
| 


Регистрируем данные в 
Data Registry 
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Jupyter Notebook 


ar jupyter ВОТ CLASSIFICATION MODEL -- BEST ATTEMPT Last Checkpoint: 8 минут назад (unsaved changes) 


File Edit View Insert Cell Kernel Widgets Help 
a + х@ № лу И Ш С y= Code + а 
In [1]: import data_processing 
In [2]: import pandas as pd 
In [3]: data = pd.read_csv("data/behaviour_public_2018-2019 filtered_raw.csv", "\t") 


features = data_processing.generate_ features (data) 
target = data_processing.get_target (data) 

model = BotClassificationPipeline( ) 
model.fit(features, target) 


NameError Traceback (most recent call last) 
<ipython-input-3-c940d1691b65> in <module> 

2 features = data_processing.generate_features (data) 

3 target = data_processing.get_target (data) 
----> 4 model = BotClassificationPipeline( ) 

5 model.fit(features, target) 


NameError: name 'BotClassificationPipeline' is not defined 


Trusted 


ё 


о 
х 
Logout 


| Python 3 О 
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Инструменты для пайплайнов 


DAGSTER 


хо 


Задачи, которые мы решаем 


Спам или нет 
\ 


Матричная факторизация 
для музыки 


as 
? 
картинке текст? Порно VS Эротика VS Норм 
| 
ВНЕ Что изображено на фото? 


Какая тематика 
у поста 


Матричная факторизация 
для групп 


| 


Матричная факторизация 
для игр 


XO 
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Задачи, которые мы решаем — похожи друг на друга! 


Пайплайн для рекомендаций 


Какая тематика 
у поста 


| 
| l 
1 I 
| | 
| | 
р Кликбейт р 
ЕЕ | 
| | 
| | 
| | 
| | 
| | 
| | 
1 


| 

| 

| 

| 

| 

Матричная факторизация | 
для групп ! 
Матричная факторизация - 
для игр i 
Матричная факторизация | 
для музыки | 

| 


XO 
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Работа с кодом 


Датасет 


Параметры 


x0 


Модель для рекомендаций музыки 
Пайплайн - 
для рекомендаций |> Модель для рекомендаций групп 


Модель для рекомендаций 
в discovery 
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Работа с кодом 


- Обязательное ревью кода (уклон на 
переиспользование наработок) 


- Покрытия тестами М!-компонентов 


Repository 


хо 
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Разработка модели 


Собрать данные Где-то сохраняем данные 


Код в отдельных скриптах или 
Обучить модель ноутбуках 


Провалидировать І 
модель І 
І 


| 
Поместить модель в место, І 
доступное для прода І 
| 


Регистрируем данные в 
Data Registry 
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Разработка модели 


Собрать данные Где-то сохраняем данные 


Код в отдельных скриптах или 
Обучить модель ноутбуках, параметры запуска в 
wiki 


Провалидировать 
модель 


| 
Поместить модель в место, І 
доступное для прода І 
І 


Регистрируем данные в 
Data Registry 
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Работа с параметрами 


Все параметры для обучения моделей 


- используемые датасеты 

- параметры предобработки данных 

- параметры конструирования 
моделей 

- параметры тонкости обучения 


фиксируются в GIT 


experiments / ok_monitoring_anomaly_detection / config / сопЯд.ут! MODIFIED 


о ыс шлш н 


© 


11 
12 


13 
14 
15 
16 
17 
18 
19 
20 


21 
22 
23 
24 
25 
26 
27 
28 
29 


1 
2 
3 
4 
5 
6 


24 
25 


+ + 


pipeline type: time series classification pipeline 


experiment_name: ok_monitoring anomaly detection 


stages: 


dataset download: 


datasets: 


{dataset_name: ok_monitoring time series, tag: ок 
out: data 20 08} 

{dataset_name: ok_monitoring time series, tag: ok_ 
out: &train_folder data_20_09} 

{dataset_name: ok_monitoring time series, tag: ok 
out: &уа1 folder data_20 10} 

{dataset_name: ok_monitoring time series, tag: ok 
{dataset_name: ok_monitoring_ time_series, tag: ok_ 
{dataset name: ok_monitoring time series, tag: ok 


concat_ datasets: 


inputs: 


type: csv 

paths: 

- data_20_08/data.csv 

- data_20_09/data.csv 

out: data_20 09/concated data.csv 
- data_20_10/data.csv 

out: даба 20 10/concated data.csv 


split_dataset: 


inputs: 


test_size: 0.0 

val_size: 0.5 

train_size: 0.5 

input: data 20 10/data.csv 
val_path: data_20 10/val.csv 
train path: data 20 10/test.csv 
input: data_20_11/data.csv 
val_path: data 20 11/val.csv 


хо 
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Работа с параметрами 


Пайплайн рекомендаций 


хо 


Разработка модели 


Собрать данные Где-то сохраняем данные 


Код в отдельных скриптах или 
Обучить модель ноутбуках, параметры запуска в 
wiki 


Провалидировать 
модель 


| 
Поместить модель в место, І 
доступное для прода І 
І 


Регистрируем данные в 
Data Registry 


Переиспользуемые пайплайны, 
параметры фиксируются в GIT 
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Разработка модели 


| 
Собрать данные Где-то сохраняем данные i 


Код в отдельных скриптах или l 
ноутбуках, параметры запуска в Wiki} 
Обучить модель Никто не контролирует процесс | 
обучения І 


Провалидировать І 
модель І 
| 


| 
Поместить модель в место, І 
доступное для прода І 
І 


Регистрируем данные в 
Data Registry 


Переиспользуемые пайплайны, 
параметры фиксируются в GIT 
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Человек запускает обучение 


Датасет 


Пайплайн 
для рекомендаций > 


Параметры 


°з 
| В | 


Модель для рекомендаций музыки 


Модель для рекомендаций групп 


Модель для рекомендаций 
в discovery 


XO 


8l 


Робот запускает обучение 


‚- ИД 
Y y 
/ 


Датасет 


Пайплайн 
для рекомендаций > 


Параметры 


Модель для рекомендаций музыки 


XO 


Модель для рекомендаций групп 


Модель для рекомендаций 
в discovery 
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Механизмы запуска 


Коммитим параметры, по ним обучается модель 
(CI/CD для модели) 


хо 


Строим большие пайплайны со Spark и переобучением 


83 


Разработка модели 


| 
Собрать данные Где-то сохраняем данные i 


Код в отдельных скриптах или l 
ноутбуках, параметры запуска в Wiki} 
Обучить модель Никто не контролирует процесс | 
обучения І 


Провалидировать І 
модель І 
| 


| 
Поместить модель в место, І 
доступное для прода І 
І 


Регистрируем данные в 
Data Registry 


Переиспользуемые пайплайны, 
параметры фиксируются в CIT 
Обучение происходит в 
контролируемой среде 
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Разработка модели 


| 
Собрать данные Где-то сохраняем данные i 


Код в отдельных скриптах или l 
ноутбуках, параметры запуска в Wiki} 


Обучить модель Никто не контролирует процесс | 

обучения І 

Ee cee ee Se ee eee 7 

Отчет с метриками делается в | 

Провалидировать jupyter notebook или htmin | 
модель Терри 

прикрепляется в wiki/git | 


| 
Поместить модель в место, І 
доступное для прода І 
І 


Регистрируем данные в 
Data Registry 


Переиспользуемые пайплайны, 
параметры фиксируются в CIT 
Обучение происходит в 
контролируемой среде 
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MLFLOW TRACKING 


хо 


Логирование метрик и ключевых параметров 


Experiments 


Search Ex 


Default 


Default 


Artifact Location : 


Experiment ID: 0 
храп file:///Users/mikhail.maryufich/PycharmProjects/mlflow_tutorial/examples/sklearn_elasticnet_wine/mlruns/O 


+ Notes [4 
None 
Search Runs: | metrics.rmse < 1 and params.mod and tags.miflow.source.type = "LOCAL @ State: Active ~ Clear 


Showing 4 matching runs Delete Download CSV $ = Га) 19: Columns 
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Parameters Metrics 
О Start Time Run Name User Source Version alpha I1_ratio mae r2 rmse 
О © 2020-10-21 20:11:55 - mikhail.mar... О train.py - 0.1 0.5 0.562 0.243 0.731 
О © 2020-10-21 20:11:51 - тікһайі. таг... О train.py - 0.1 0.4 0.56 0.245 0.73 
О © 2020-10-21 20:11:47 - mikhail.mar... О train.py - 0.4 0.4 0.597 0.172 0.764 
О © 2020-10-21 20:11:43 - mikhail.mar... © train.py - 0.4 0.3 0.586 0.193 0.755 
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MLFLOW TRACKING 


у Parameters 


Name 
elasticNetParam 


regParam 


v Metrics 


Name 

auc on test е^ 
auc on train 7 
аис рг on test л 


аис рг оп train lZ 


Value 


1.0 


0.08 


Value 


0.734 


0.731 


0.396 


0.398 


хо 
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MLFLOW TRACKING 


Есть возможность сохранять артефа КТЫ 


+ Artifacts 


т № workdir 
> № model_config 
> B trace_serialization 
_ В20200624_164935.109 
В best.pth 
ВБ epoch_27.pth 
Б epoch_29.pth 
В epoch_30.pth 
Б сопйд.ут! 


XO 


Full Path: hdfs://datalab-hadoop-nn/var/artifacts/mlflow/214/8146454960bd4321a2c8021f5cf44eb8/artifacts/workdir/20... 


Size: 3KB 


2020-06-24 17:08:43,475 
2020-06-24 17:29:32,759 
2020-06-24 17:47:26,562 
0.9258855909499958 
2020-06-24 18:08:40,234 
0.9345885924071096 
2020-06-24 18:31:57,720 
0.9390506371820738 
2020-06-24 18:57:15,263 


INFO 
INFO 
INFO 
INFO 
INFO 


INFO 


— Best 
— Best 
— Best 
— Best 


— Best 


Best 


checkpoint 
checkpoint 
checkpoint 
checkpoint 


checkpoint 


checkpoint 


was 


was 


was 


was 


was 


was 


changed: 
changed: 
changed: 
changed: 
changed: 


changed: 


epoch_1.pth 
epoch_2.pth 
epoch_3.pth 
epoch_4.pth 
epoch_5.pth 


epoch_6.pth 


with 0.910159144363855 from -i 
with 0.9258855909499958 from 0 
with @.9345885924071096 from 
with 0.9390506371820738 from 
with @.9411203934084562 from 


with 0.9426317428210148 from 
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Работа с метриками 


Пайплайн 
для рекомендаций > 


пп} оуу 


Модель для рекомендаций музыки 


Модель для рекомендаций групп 


Модель для рекомендаций 
в discovery 


XO 
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Разработка модели о 


Было Стало 
о оон 
Регистрируем данные в 
Собрать данные Где-то сохраняем данные i ша лек 
иаа аа а алаа ЕНА ЕАР 4----------------- 
Код в отдельных скриптах или | Переиспользуемые пайплайны, 
ноутбуках, параметры запуска в Wiki} параметры фиксируются в CIT 
Обучить модель Никто не контролирует процесс | Обучение происходит в 
обучения І контролируемой среде 
ЕЕ Е ЕАИС ЕАО Sere === 
Отчет с метриками делаетсяв | м 
Провалидировать jupyter notebook или Нат! и етрики и отчеты сохраняются в 
модель pyre | miflow с привязкой к запуску 
прикрепляется в wiki/git | 


| 
Поместить модель в место, І 
доступное для прода І 
І 
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Разработка модели о 


Было Стало 
о оон 
Регистрируем данные в 
Где-то сохраняем данные l | 
Собрать данные д, р д | Data Registry 
ome ШШ ШШ ee Нн ШШ ee =“ =! =! = =! =! = =! =a = = = rae = ET m = 
Код в отдельных скриптах или | Переиспользуемые пайплайны, 
ноутбуках, параметры запуска в Wiki} параметры фиксируются в CIT 
Обучить модель Никто не контролирует процесс | Обучение происходит в 
обучения І контролируемой среде 
пш н ш н Нн н Н Н ШШ Н ән Н ЫН Н ШШ ШШ Шш и | =a = = = = = = = = = = = =! | = = = 
а Метрики и отчеты сохраняются в 
Провалидировать jupyter notebook или html и ' р oP 
модель oar miflow с привязкой к запуску 
прикрепляется в wiki/git | 


| 
Поместить модель в место] Просто создаем папочку в НОЕ$, ! 
доступное для прода версионирование названиями ! 
І 
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MLFLOW MODEL REGISTRY 


ml GitHub 


Default > Run ed089cf2d5d24b8880446761987b7ac2 ~ 


Date: 2019-10-16 22:49:25 Source: Otrain_predict.py Git Commit: 
fcfefecd6f830c43dc8cdc048b83ac92fd8d5d7e 

User: sid.murching Duration: 6.2s 

~ Notes [4 

None 


› Parameters 
» Metrics 
~ Tags 


Name Value Actions 


Add Tag 


Add 


~ Artifacts 


7 № model Full Path: /tmp/swag/0/ed089cf2d5d24b8880446761 987b7ac2/artifacts/model Register Model 
В М! тоде! Size: 0B 
В conda.yaml 
> Ba timodel 


Docs 


XO 
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Register Model 


Once registered, the model will be available in the model registry and become public. 


* Model 


+ Create New Model 


* Model Name 


| Моде! А| 
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MLFLOW MODEL REGISTRY 


Я 


ml GitHub Docs 
Registered Models Q 
Мате * Latest Version Staging Production Last Modified 
Model A Version 1 Version 1 — 2019-10-16 22:51:19 
Model В Version 1 =- — 2019-10-16 22:51:52 
94 
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MLFLOW MODEL REGISTRY 


хо 


Ко всему этому, есть rest api и возможность делать кодом из клиента 
Это позволяет строить разные релизные циклы 


client MlLflowClient() 

result = client.create_model_version( 
name="sk-Learn-random-forest-reg-model", 
source="mLruns/0/d16076a3ec534311817565e6527539c0/artifacts/sklearn-model", 
run_id="d16076a3ec534311817565e6527539c0" 
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Схема с Model Registry 


miflow 
Model Registry 


Модель для рекомендаций музыки 
Пайплайн _ 
для рекомендаций — Модель для рекомендаций групп 
Модель для рекомендаций 
в discovery 


хо 
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Разработка модели о 


Было Стало 
я Пива 
Регистрируем данные в 
Где-то сохраняем данные l | 
Собрать данные д, р д | Data Registry 
ome ШШ ШШ ee Нн ШШ ee =“ =! =! = |] =! ши =! a =! = = ee = Eee m = 
Код в отдельных скриптах или ү Переиспользуемые пайплайны, 
ноутбуках, параметры запуска в Wiki} параметры фиксируются в CIT 
Обучить модель Никто не контролирует процесс | Обучение происходит в 
обучения І контролируемой среде 
пш н ш н Нн н Н Н ШШ Н ән Н ЫН Н ШШ ШШ Шш и | =a = = = = = = = = = = = 1 =! = = = 
а Метрики и отчеты сохраняются в 
Провалидировать jupyter notebook или html и ' р a 
модель rere MLflow с привязкой к запуску 
прикрепляется в wiki/git | 


І 
Модель сохраняется и 
Поместить модель в место] Просто создаем папочку в НОЕ$, ! А. Р 
доступное для прода ‚ версионируются в MLflow Model 
версионирование названиями Registry 
І 
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Итоговая схема 


© Jira 


Улучшить 


USER 


систему 
рекомендаций / 


кош труда 


Арасһе 


Airflow 


Pipeline 


Apache n m Iflow 
Airflow : | Собрать данные Обучить модель шше ке аги : Model Registry 


хо 
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Результаты 


хо 


- Научились воспроизводить обучение моделей 
- Time2Market для типовых моделей снижен до 2-х дней 


- Большинство моделей в ОК прошли через описанные 
процедуры 
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Организационные решения 


хо 


На продакшн не может попасть модель, которая не прошла 
через автоматическое обучение с фиксацией 
кода/параметров/данных. 


Внимание качеству кода и тестов уделяется не меньше, чем 
исследовательской составляющей 


Доклад про воспроизводимость 


SmartData 


Михаил Марюфич 
Mail.Ru Group 


CICD для М!-моделей и 
датасетов 


хо 
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Машинное обучение в продакшне — это просто! Нужно только... 


хо 


- Автоматизация-автоматизация-автоматизация! 


- Технический процесс так же важен, как и счастье 
пользователей! 


- Результат работы 05-специалиста не модель, a 
пайплайн! 


102 


Итоги 


Я 


Сегодня мы пришли к: 
- автоматизации batch inference 
- мониторингу данных 
- автоматизации обучения модели 


- Model as a service 
- Streaming 


Машинное обучение в продакшне 
— это просто! 


Нужно только... di 77 


Михаил Марюфич Е 


++ as 
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